基因

一、基因及其信息流向

(一)基因和基因组

1.基因

基因(gene)是细胞内遗传物质的最小功能单位,是负载有特定遗传信息的DNA片段。基因能够编码生物活性物质,其产物为各种RNA和蛋白质。蛋白质是生命活动的执行者,通过转录和翻译,基因DNA的编码序列决定了蛋白质的一级结构,从而决定蛋白质的功能。

为了区分调控途径中的成员和被调控的基因,目前一般将基因分为结构基因(structural gene)和调控基因(regulatory gene)。

  1. 结构基因是指编码非调控因子的任何蛋白质和RNA的基因,其表达产物如结构蛋白、酶、rRNA和tRNA等;
  2. 而调控基因则通过编码蛋白质或RNA来调节其他基因的表达。

绝大多数的遗传物质是DNA,部分病毒的遗传物质是RNA。构成DNA遗传信息的物质基础是DNA序列中的核苷酸排列顺序。通过DNA的复制,基因所携带的遗传信息代代相传。

2.基因组

基因组(genome)是指细胞或生物体的一套完整的单倍体遗传物质,是所有染色体上全部基因和基因间的DNA的总和,它含有一个生物体进行各种生命活动所需要的全部遗传信息。

原核细胞没有细胞核结构,其基因组以裸露DNA或RNA的形式存在于细胞中,其基因组结构较真核细胞简单。在原核细胞中,一个基因就是DNA分子的一个片段;但在真核细胞,一个基因可以是DNA分子的一个片段或是若干片段的组合。

真核细胞基因组的复杂性和信息量的庞大程度远远超过原核细胞。研究表明,由于DNA存在编码区与非编码区,基因组的大小并不一定代表基因组的复杂性。例如,人类基因组约有3.0×10bp,但只有2万~3万个基因,仅是大肠杆菌(E.coli)4000个基因的5~7倍;而蝾螈和百合花的DNA数量却是人类基因组的10倍,但这些生物的复杂程度显然比不上人类。

(二)中心法则

基因是遗传信息的贮存形式。在细胞内,遗传信息的流向一般是DNA→RNA→蛋白质。首先以DNA作为模板合成RNA分子,接着RNA分子指导特定蛋白质合成,此过程称为基因表达(gene expression)。

基因表达的终产物是蛋白质(也可以是RNA)。遗传信息从DNA到RNA再到蛋白质的流动,称为分子生物学的中心法则(central dogma)(图9-l)。中心法则包括:

  1. [200 学习/201 细胞生物学/第08章 细胞核/第5节 细胞核的功能/细胞核的功能|复制]:即遗传信息可由亲代DNA通过半保留复制传递给子代DNA;
  2. [200 学习/201 细胞生物学/第09章 基因表达/第2节 转录/转录|转录]:即以DNA为模板合成RNA的过程;
  3. [200 学习/201 细胞生物学/第09章 基因表达/第3节 翻译/翻译|翻译]:以RNA(mRNA)为模板指导蛋白质生物合成的过程,即由RNA的核苷酸序列转变为蛋白质的氨基酸序列。
  4. 逆转录:逆转录酶能催化以RNA为模板合成DNA,即RNA→DNA;
  5. 另外,一些RNA病毒可以RNA为模板复制出新的RNA,这些现象都是对中心法则的有益补充。

负责翻译为蛋白质的RNA,像信使那样携带着来自DNA的遗传信息到胞质核糖体指导合成蛋白质,因而称之为信使RNA(messenger RNA,mRNA)。除mRNA外,核糖体RNA(ribosomal RNA,rRNA)和转运RNA(transfer RNA,tRNA)都是基因表达的终产物。细胞中还有一些小分子的RNA在遗传信息的表达调控中起重要作用。

二、基因的结构及特点

(一)原核细胞基因

大多数原核细胞中只有一个DNA分子,即一条染色体。

原核细胞基因组DNA的绝大部分可编码蛋白质,只有小部分不转录,为非编码区。
原核细胞结构基因序列是连续的(指没有内含子成分,内含子属于非编码区但会被转录),在转录后不需要剪切和加工。

在原核细胞中,功能相关的结构基因串联排列,受上游共同调控区的控制,同时转录和翻译,最终形成功能相关的几种蛋白质。

位于结构基因上游的是启动子(promoter)序列,它是RNA聚合酶识别和结合的部位,可以控制在同一条DNA上紧密连接的一个或几个基因的转录。原核生物的启动子大约有55个碱基对长,其中包含有转录的起始点和RNA聚合酶的识别部位及结合部位。

  1. 起始点:是DNA模板链上开始进行转录作用的位点,以“+1”标识,在DNA模板上,从起始点开始顺着转录方向的区域称为下游;从起始点逆着转录方向的区域称为上游。
  2. 识别部位:是RNA聚合酶的σ因子识别DNA分子的部位,约有6个碱基对,其中心位于上游-35bp处,所以称为-35区,其共有序列是5'-TTGACA-3'。
  3. 结合部位:是指在 DNA分子上与RNA聚合酶核心酶紧密结合的序列,其长度大约是7个碱基对,其中心位于起始点上游的-10bp处,因此将此部位称为-10区。多种启动子的-10区具有高度的保守性和一致性,它们有一个共有序列或共同序列,为5'-TATAAT-3',又称为Pribnow盒(pribnow box)。在Pribnow盒中的DNA双链容易解开,利于RNA聚合酶的进入而促使转录作用的起始。

(二)真核细胞基因

与原核细胞相比,真核细胞基因组DNA含量要大得多,如人单倍体基因组DNA含量是大肠杆菌的近700倍。
除了数量多,真核细胞的基因结构也更复杂。

  1. 首先,基因序列由编码区(coding region)和非编码区(non-coding region)组成,编码区(编码序列)是不连续的,被非编码区(非编码序列)隔断,因而真核细胞基因也称为断裂基因(split gene)。
  2. 其次,在真核基因组中存在许多重复序列,有些碱基序列反复出现可达百万次以上。
  3. 此外,真核细胞基因大小相差悬殊,如人血红蛋白B-珠蛋白基因全长约1700bp,而DMD(Duchenne's muscular dystrophy,假肥大型肌营养不良)基因全长可达 2300kb。

1.多个功能区域

真核基因一般是由若干内含子和外显子构成的不连续镶嵌结构的基因。除内含子和外显子之外,完整的基因还包括位于编码区上游的启动子和基因末端的终止子。

(1)外显子和内含子

原核细胞的基因往往是连续的,DNA经转录后即可得到直接编码蛋白质的序列,而真核细胞基因中编码序列常常被非编码序列隔断,转录后需加工切去非编码序列成为成熟的RNA,才能进行蛋白质的合成。

通常人们把基因内部能够被转录,并能指导蛋白质生物合成的编码序列称为外显子(exo),把在基因内部能够被转录,但不能指导蛋白质生物合成的非编码的序列称为内含子(intron)。(参考核仁,其实rDNA的基因簇也有类似点)

一个断裂基因可由若干个外显子和若干个内含子组成,基因中的外显子与内含子间隔排列,其转录的终产物为mRNA。

在内含子的5'端多以GT开始,3'端多以AG结束,称GT-AG法则,是普遍存在于真核细胞基因中 RNA剪接的识别信号。在RNA剪接加工后形成的成熟mRNA的5'端和3'端,都各有一段由30到数百个核苷酸组成的非翻译区(untranslated region,UTR)。

(2)启动子

启动子是编码区上游的DNA序列,是控制转录的关键部位。

启动子中含有特征性的核心序列,真核生物典型的启动子是由TATA盒及其上游的CAAT盒和(或)GC盒组成。

  1. RNA聚合酶及其他蛋白质转录因子结合位点:在转录起始位点上游-25~-35bp区段是由7~10个碱基组成而以TATA为核心的序列,称为 TATA盒(TATA box)。这一部位是RNA聚合酶及其他蛋白质因子的结合位点,与转录起始的准确定位有关。若TATA盒缺失,转录合成的RNA可有不同的5'端。
  2. 蛋白质转录因子的结合位点:位于TATA盒的上游,距转录起始点-70~-80bp区含有CCAAT序列,在-80~-110bp区含有GGGCGG序列,这两段保守序列分别称 CAAT盒(CAAT box)和GC盒(GC box),目前统称为上游启动子序列(upstream promoter sequence, UPS)或上游启动子元件(upstream promoter element,UPE),它们是许多蛋白质转录因子的结合位点。CAAT盒和GC盒是基因有效转录所必需的DNA序列,主要控制转录的起始频率,基本不参与起始位点的确定。
(3)终止子

终止子(terminator)是存在于基因末端具有转录终止功能的特定顺序。转录后形成发夹结构,使RNA聚合酶从模板上脱离,终止转录。(参考转录,原核也未必没有类似结构)

2.基因家族

真核细胞基因结构最显著的特征之一是存在许多基因家族(gene family)。基因家族是真核细胞基因组中来源相同、结构相似、功能相关的一组基因,是由一个祖先基因经重复和变异形成的。按照在基因组中的分布不同,基因家族可分为二类,

  1. 一类是基因家族的成员成簇存在,串联排列于特殊的染色体区段上,形成基因簇(gne cluster),它们常可同时转录,合成功能相关或相同的产物,如组蛋白、rRNA基因家族;
  2. 另一类是基因家族成员分散存在,广泛地分布于整个染色体,甚至可存在于不同的染色体上,如干扰素、珠蛋白等基因家族。
  3. 在基因家族中,有些成员不能产生有功能的基因产物,称为假基因(pseudogene),它们或是不能转录,或是转录后生成无功能的基因产物。假基因在核苷酸序列上与有功能的基因相似,它们可能来自同一祖先基因,只是在进化过程中某些成员的核苷酸序列中发生缺失、倒位、点突变而成为无功能的假基因。大多数基因家族都有假基因的存在,但数量很少。

3.重复序列

在真核细胞基因组中,编码蛋白质的基因一般只有一个或几个拷贝,这称为单一序列(unique sequence)。除此之外,基因组中还含有大量的功能未知、有多个拷贝的DNA重复序列(repetitive sequence)。在动物细胞中,多达一半的DNA由DNA重复序列组成。根据DNA重复程度的不同,将其分为以下两种:

(1)中度重复序列

中度重复序列(moderately repetitive sequence)由相对较短的序列组成,重复次数在10~1000之间。(参见染色质和染色体,你就矛盾吧,谁能矛盾过你啊。)一般认为,中度重复序列有三种:

  1. 属非编码序列,散在分布于基因组中,与基因调控有关。
  2. 某些编码功能性RNA的基因在基因组中的重复次数也达几十到几百次,它们串联排列于基因组的一定区域,如rRNA基因和tRNA基因等。
  3. 某些编码蛋白质的基因
(2)高度重复序列

高度重复序列(highly repetitive sequence)由基因组中非常短的序列(一般小于100bp)组成,其在基因组中的重复次数在几千次以上,一般组成长的串联重复序列,常成簇分布于染色体着丝粒区及染色体的端部,如卫星DNA。

高度重复序列可能与基因表达调控及染色体结构维持有关,具体功能尚不清楚。